京东姚霆：推理能力，正是多模态技术未来亟需突破的瓶颈！

夕颜 AI科技大本营 2020-10-29

受访者 | 姚霆，京东 AI 研究院算法科学家

记者 | 夕颜

来源 | CSDN（ID：CSDNnews）

21 世纪，没有谁不知道电商，工资可以不发，但是每个月不网购几单，那是不可能的！

打开熟悉的购物 App，在搜索栏输入想要买的东西，有时候你会发现文字不能很好地匹配你想要找的东西，用一张图片来搜索更简单直接。这种“以图搜图”的操作基本上所有电商平台现在都支持了，效果也还不错。以京东 App 为例，笔者在搜索框输入下图，得到结果如右图所示，是笔者想要的多肉植物没错。

用起来很方便，但你可能不知道的是，这简单的搜索动作背后，却是复杂的计算机视觉技术在提供支持，甚至用到了图像内容、文本和高层语义属性等多个模态下的信息融合，来实现精准的以图搜图。

当然，拍照购只是京东电商的众多应用之一，跨模态技术应用还有很多，比如推荐和信息流广告，内容审核也可以结合海量的商品图像与对应的商品语义属性，学习图像语义特征表达。另外，我们在使用京东 App 时可能都有过被智能客服接待的经历，这背后的技术，就是在任务驱动型的多轮对话中融入视觉到语言的跨模态转换技术，让智能客服可以自动地对用户上传的图片或视频进行自动应答。

在物流场景，京东也成功地将视频分析技术应用于物流园区作业人员行为规范管理中，特别是针对监控视频的站点环境、摄像头角度和成像条件差异性较大等难点，京东采用了自研的基于局部——全局传播网络的通用视频特征以及高效视频事件时序检测框架，并融入了跨域学习技术，实现了同时在几百个不同的站点中全天候的作业人员操作行为实时检测，有效地管理了物流作业人员在各个站点的工作规范。

可能会有人好奇，这背后的多模态技术在京东电商和物流场景中具体是如何实现的，多模态技术在电商和物流中还有哪些热门的落地应用，多模态技术本身当前发展到哪一步了，目前发展遇到了哪些瓶颈，未来又将向哪些方向发展，等等。

带着这些问题，CSDN 邀请到了京东 AI 研究院算法科学家姚霆博士，来为我们答疑解惑。

师从多媒体领域领军人物Chong-Wah Ngo

姚霆本科和硕士毕业于中国科学技术大学，博士就读于香港城市大学，师从 ACM 杰出科学家，也是多媒体领域的领军人物之一 Chong-Wah Ngo 教授。博士毕业后，他加入微软亚洲研究院任职研究员，主研计算机视觉。2018 年 6 月，姚霆加入京东 AI 研究院，担任算法科学家，负责领导京东视觉与多媒体实验室的视觉内容分析团队，研究方向主要关注视频内容理解、视觉与语言，以及大规模多媒体内容搜索。

姚霆在 CVPR/ICCV/ECCV/AAAI/SIGIR/ACM MM/TIP/TMM 等顶级会议/期刊上已发表论文 50 余篇（引用率 3600 余次），现任多媒体领域顶级学术期刊 IEEE Transactions on Multimedia 期刊编委。值得一提的是，姚霆还是 P3D ResNet（视频特征学习）、LSTM-A（图像语义属性）、GCN-LSTM（图像物体关系）、HIP（图像分层解析）、X-LAN（高阶注意力机制）的作者和计算机视觉领域重要数据集MSR-VTT（视频描述生成）的创建人，曾带领团队获得多项视频内容理解和跨域学习竞赛冠军，是当之无愧的学术带头人。

实际上，姚霆不仅在学术上成果颇丰，在京东也有更多机会将实验室的研究成果落地。

在这里，AI 研究院计算机视觉和多媒体实验室主要有 4 个研究方向：人脸计算、人体分析、图像理解和视频分析，而姚霆所带领的视觉内容分析团队主要关注两个方向，即视频内容理解和视觉与语言。前者包括从底层的针对视频理解的神经网络设计，视频特征表达学习，到视频动作/事件识别，动作定位和检测，视频语义分割，视频描述生成等全栈式的分析维度，后者则集中在图像/视频的语义特征学习，视觉与语言的特征交互，以及跨模态的预训练课题。

以学术研究带动产业落地，正是姚霆所带领的团队要做的事，在多模态技术研究上，这支团队一直尝试多模态领域有所突破，比如近期该实验室在视觉与语言方向提出了一个全新的高阶注意力机制（X-linear Attention Block），首次将其融入至图像描述生成任务中，主要的技术创新是打破了传统注意力机制中一阶的特征交互限制，通过所设计的高阶注意力机制可以灵活地捕捉不同模态间高阶乃至无穷阶的特征交互，大大提升了视觉到语言的跨模态转换性能。这个注意力机制在 COCO 在线测试集上达到世界领先的水平，并被 CVPR 2020 接收。

在视频内容理解课题上，实验室在 2019 年提出了局部——全局传播（LGD）网络。这种全新的神经网络结构设计另辟蹊径地在传统三维卷积网络基础上引入了对全局信息的独立建模，提升了视频基础特征的描述能力。此外，不同于现有的由人工设定的视频网络结构，实验室还创新性地提出了基于可微分结构搜索的视频网络结构自动搜索方法（SDAS），从而在视频数据上让机器自动地学习和设计针对视频内容理解的网络结构，同时也可以在搜索过程中加入对于运行效率的约束，以定制化地搜索最优的网络结构。

多模态表示学习、模态转化等“老大难”问题怎么解决？

保持技术创新的过程中，姚霆团队很清楚地意识到，多模态在技术层面一定绕不过一些难以解决的“老大难”问题，比如多模态表示学习、模态转化、多模态融合、跨模态分析、跨域学习，就是几个典型的挑战。针对这些问题，京东其实提出了一些有效的方法，也许对相关领域的研究人员和学习者有一定借鉴意义。

在多模态表示和跨模态转化方向，姚霆以视觉和语言方面举例，2017 年在图像特征表达方面融入了高层语义特征，以增强所生成语言描述和图像的语义一致性；2018 年则更进一步挖掘了图像中物体和物体间的语义空间关系，构建出物体间语义和空间的关系图，从而促进对图像内容的深层次理解。然而，尽管物体间关系图有效地引入了物体间关系的语义信息，但依然无法充分表达整个图像所包含的丰富语义，所以在 2019 年，京东又提出了一种多层次的树形语义结构，它囊括了从语义分割后的物体实例到检测后的物体区域再到整个图像的不同层级之间的语义信息。通过这样一种树形结构，可以有效地对物体不同层次间语义关联性进行编码，从而最终生成更为精准的描述文本。

这一系列工作的研究脉络基本都是围绕着在跨模态转化过程中不断强调对视觉内容的理解，而语言建模部分都是采用通用的 RNN 或 Transformer 类似的结构来实现。不同于这一研究脉络，在今年京东最新的工作中，他们在上文中提到的高阶注意力机制则逐渐聚焦于视觉内容和语言建模这两者之间的特征交互，希望可以通过不同模态间基于高阶的信息交互，让两者成为相互促进的整体。

跨域学习也是京东另一个持续关注的研究方向。姚霆解释到，因为跨域学习可以很好地提升模型在不同场景下的泛化能力，并且无需更多目标场景下的人工标注就能实现模型在不同域下的迁移，这与京东在各种实际场景中快速进行模型落地的需求吻合。所以，针对跨域学习，京东在广度和深度上都有一些研究。

首先在广度上，京东研究了如何在图像整体特征级别、局部区域级别和像素级别进行跨域学习，使得这些跨域学习技术可以无缝地适用于图像识别、物体检测和语义分割这几大任务，同时脱离开特征级别的跨域迁移，还结合生成式对抗网络，直接在原始图像、视频上进行无监督跨域转换。

在深度上，实验室也对跨域学习框架进行了一些变革与创新，比如 2019 年提出了一个基于原型网络的跨域学习框架（TPN，Transferrable Prototypical Networks），它可以将特征学习和目标任务的学习融为一体，有效地提升跨域学习的性能，此外，实验室还从理论上证明了自主学习（self-learning）对于模型跨域转换的促进作用。在今年的 CVPR 上，实验室利用无监督聚类技术深挖目标域的内在数据结构，并利用这一信息更好地指导跨域学习，在主流的数据集 Office 和 VisDA的封闭集和开放集上均取得了 SOTA 效果，其中在 VisDA 2017 数据集上达到 87.2% 的准确率。。

多模态热门应用之视频分析

再进一步聊到多模态技术在应用上的进展，姚霆提到了视频分析技术实用性非常强的热门研究方向。京东当然也洞察到这个有潜力的方向，在视频分析技术的各大方向均有自研的独创性工作。

其中最基本是视频特征表达的学习，目标在于从原始视频数据中学习包含高层语义信息的特征向量。为此，姚霆团队设计了几种独特的三维卷积网络模型，比如伪三维卷积神经网络和局部——全局传播网络。在这些特征的基础上，实验室还搭建了包括视频事件检测、视频语义分割和视频动作检测的视频理解系统，实现对视频内容的全方位分析。与此同时，在每一个视频分析的具体应用中，实验室也都沉淀了相应的技术创新，比如针对视频事件检测提出了使用时域高斯函数对事件发生时间段进行预测的方法，同时也设计了基于网络结构自动搜索的语义分割方法，用以达成实时的视频语义分割；针对视频动作检测，提出了同时对长短时关联性进行建模的方法，也获得了在该领域领先的性能。

多模态热门应用之视频分析之视频内容理解

视频内容理解同样是一个热门的多模态研究方向。姚霆预测，在未来，视频内容理解有两个较为重要的发展趋势，即无标注或弱标注视频数据的使用，以及针对视频特质的神经网络设计。

首先，数据是深度学习训练的基础，同时也是发展视频内容理解技术的必备条件。目前视频内容理解系统的训练通常依靠大量的人工标注视频数据，这就不可避免地需要耗费时间和人力。如果可以充分利用互联网上海量的无标注或弱标注视频数据来进行训练，将会突破视频数据来源的限制，全面提升视频内容理解的性能。因此，无监督学习、半监督学习与弱监督学习都将成为视频内容理解的新趋势。

另一个方向则是针对视频特质的神经网络结构设计，目前视频内容理解中所使用的网络结构通常与图像领域的网络结构高度耦合，它们并不是真正为视频而生的网络结构，缺乏对视频数据独到且深刻的见解。所以，如何针对视频数据来设计全新一代的神经网络结构，也是视频内容理解领域一个重要的发展趋势。

针对跨模态分析领域，尽管视觉内容的理解可以随着各种高性能网络的设计和深层语义的挖掘不断升级，视觉和语言间交互的方式也已经从传统的一阶注意力机制演化到可捕捉高阶乃至无穷阶信息交互的注意力机制，但视觉与语言的技术发展依然逃脱不了深度学习对于训练数据的贪婪。

因此，如何能在海量的弱监督数据上学习更具泛化能力的视觉和语言之间本质联系，将是下一个研究的热潮。而一旦在这些海量的弱监督甚至于无监督数据上通过预训练学习到了蕴含有多模态间本质联系的模型，便可赋予它在各种视觉与语言任务上的生命力。基于此，我们最近也在数以亿计的网页上持续不断地自动抓取视频——语言的多模态数据，构建了视频——语言领域首个弱监督的大规模数据集（Auto-captions on GIF dataset），并正在 ACM Multimedia 2020 上举办跨模态预训练的竞赛，其目的还是希望能为跨模态预训练技术的未来发展准备好一个充分与完备的平台。

电商、物流+多模态发展空间大，突破口在哪？

尽管电商和物流业中，计算机视觉和多媒体技术已经有很多落地应用了，比如拍照购、内容审核和物流园区作业人员行为规范管理等，但在姚霆看来，纵观整个电商和物流体系，依然有一部分业务需要人工检验确认步骤，还远远没有达到计算机视觉和多媒体技术完全自主的阶段。简言之，当前电商、物流场景与这些技术的结合还处于局部智能化的阶段，整个产业链并没有得到颠覆性的革新。

“我们希望，随着整个电商平台和供应链的不断数字化，加上智能配送系统的持续发展，未来的电商、物流业务可以从计算机视觉和多媒体技术辅助的方式，逐渐转变成为由这些技术完全主导的机器自助，乃至多机协同，在电商与物流的每一个环节上都尽可能地使用智能的方式进行全局调度，寻求更加高效智能的供应链。这也正是我们目前正在建设的智能供应链开放平台的愿景，即依托人工智能技术与供应链系统，打造智能供应链产业生态，赋能现代供应链的生产、流通、消费三大场景。”虽然电商和物流业中多模态技术的应用还不够成熟，但姚霆十分看好这一领域的发展空间。

多模态技术被很多人视为未来获得真正的机器智能的途径之一，对于这一观点，姚霆表示不能完全认同。他认为，首先需要肯定的是，相比于只侧重单一模态的技术（比如图像识别、动作检测、机器翻译等），多模态技术一定距离真正的机器智能更近一些，因为机器智能的终极目的是模拟人的智能，而人之本身对于这个世界的认识一定是视听说的结合，这就对应着多模态技术的融合。因此，对于机器而言，只有综合来源于不同模态的知识才能对这个真实的世界实现全面综合的理解，这也正是达到真正人类级别的智能的基石之一。但是，当前的多模态技术还远远未达到能通向真正机器智能的水平，因为它缺乏了人的智能中最为关键的推理能力，这也正是多模态技术在未来亟需突破的一个瓶颈。

多模态研究历史不长，至今没有颠覆性的成果出现，要想获得进一步发展，多模态技术研究将来要对准哪些突破口？

对此，姚霆也有自己的看法，“目前大部分多模态技术走的还是深度学习中拿大量的已标注多模态数据来喂深度模型的老路子，即数据驱动模型的感知计算，这就导致训练得到的多模态模型不具备人脑一样的推理能力，其在真实场景下的泛化能力也大大受限。如果能在现有的多模态技术中融入专家、常识知识（例如结合知识图谱），则能利用数据与知识的联合驱动让多模态技术更为“智能”。同时，也可以在多模态模型训练的过程中引入多种自监督的推理型任务，“强迫”多模态模型进行推理和思考，这也能在一定程度上让机器去慢慢学会推理。”

此外，姚霆还指出，当前的多模态技术还是属于狭隘的单任务学习，整个训练和测试的过程都是在封闭和静态的环境下进行，这就和真实世界中开放动态的应用场景存在一定的差异性。为了弥补这一差异，我们可以在训练过程不断结合真实世界数据的回流来持续升级多媒体模型，甚至于可以利用元学习的方式来让模型自己学会如何认知新的多模态知识，实现适用于开放动态场景并具备终生学习能力的多模态模型。

推荐阅读

你点的每个“在看”，我都认真当成了AI

喜欢此内容的人还喜欢

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

炸大瓜！君子固穷豪刷阿哲，锤“姓氏哥”！VIC哥凌晨豪刷俊雅！

抖音兜底？阿哲爆瓜违约金！晒大量流量卡，回应官方推流！

舞帝一哥被封！谁也没面子！阿哲回应外界舆论，放话：真金白银谁敢干！

吃仇恨票？小天天甩脸，秒挂舞帝！阿哲太权威了，仙洋KS喊话！白冰0人抢福袋遭群嘲！